一个沿着城市街道行走的人试图对世界各个方面进行建模,这很快就会被许多商店,汽车和人们遵循自己的复杂且难以理解的动态所淹没。在这种环境中的探索和导航是一项日常任务,不需要大量精神资源。是否可以将这种感官信息的消防软管转变为最小的潜在状态,这是代理在世界上成功采取行动的必要和足够的?我们具体地提出了这个问题,并提出了可控制的状态发现算法(AC-State),该算法具有理论保证,并且实际上被证明可以发现\ textit {最小可控的潜在状态},其中包含所有用于控制控制的信息代理,同时完全丢弃所有无关的信息。该算法由一个具有信息瓶颈的多步逆模型(预测遥远观察结果的动作)组成。 AC-State可以在没有奖励或示威的情况下实现本地化,探索和导航。我们证明了在三个领域中发现可控潜在状态的发现:将机器人组分散注意力(例如,照明条件和背景变化),与其他代理商一起在迷宫中进行探索,并在Matterport House Simulator中导航。
translated by 谷歌翻译
我们在一般的非线性函数近似下研究无奖励增强学习(RL),并在各种标准结构假设下建立样品效率和硬度结果。从积极的一面来看,我们提出了在最小的结构假设下进行样品有效奖励探索的Rfolive(无奖励橄榄)算法,该假设涵盖了先前研究的线性MDPS的设置(Jin等,2020b),线性完整性(线性完整性)( Zanette等人,2020b)和低级MDP,具有未知的表示(Modi等,2021)。我们的分析表明,以前针对后两个设置的易学性或可及性假设在统计上对于无奖励探索而言并不是必需的。在负面方面,我们为在线性完整性假设下的无奖励和奖励意识探索提供统计硬度结果时,当基础特征未知时,显示了低级别和线性完整性设置之间的指数分离。
translated by 谷歌翻译
在现实世界的强化学习应用中,学习者的观察空间无处不在,有关手头任务的相关信息和无关紧要。从高维观察中学习一直是监督学习和统计数据(例如,通过稀疏性)进行广泛研究的主题,但是即使在有限的状态/行动(表格)领域,也不能很好地理解强化学习中的类似问题。我们引入了一个新的问题设置,用于增强学习,即马尔可夫决策过程(EXOMDP),其中状态空间将(未知)分解成一个小的(或内源性)组件,并且很大的无关(或外源)组件;外源成分独立于学习者的行为,但以任意的,时间相关的方式演变。我们提供了一种新的算法Exorl,该算法学习了一种近乎最佳的政策,其样品复杂性在内源性组件的大小中多项式,几乎独立于外源成分的大小,从而提供了一个双重指数的改进算法。我们的结果首次突出了在存在外源信息的情况下首次可以进行样品高效的增强学习,并为未来的调查提供了简单,用户友好的基准。
translated by 谷歌翻译
Offline policy evaluation is a fundamental statistical problem in reinforcement learning that involves estimating the value function of some decision-making policy given data collected by a potentially different policy. In order to tackle problems with complex, high-dimensional observations, there has been significant interest from theoreticians and practitioners alike in understanding the possibility of function approximation in reinforcement learning. Despite significant study, a sharp characterization of when we might expect offline policy evaluation to be tractable, even in the simplest setting of linear function approximation, has so far remained elusive, with a surprising number of strong negative results recently appearing in the literature. In this work, we identify simple control-theoretic and linear-algebraic conditions that are necessary and sufficient for classical methods, in particular Fitted Q-iteration (FQI) and least squares temporal difference learning (LSTD), to succeed at offline policy evaluation. Using this characterization, we establish a precise hierarchy of regimes under which these estimators succeed. We prove that LSTD works under strictly weaker conditions than FQI. Furthermore, we establish that if a problem is not solvable via LSTD, then it cannot be solved by a broad class of linear estimators, even in the limit of infinite data. Taken together, our results provide a complete picture of the behavior of linear estimators for offline policy evaluation, unify previously disparate analyses of canonical algorithms, and provide significantly sharper notions of the underlying statistical complexity of offline policy evaluation.
translated by 谷歌翻译
我们研究$ k $ used的上下文决斗强盗问题,一个顺序决策制定设置,其中学习者使用上下文信息来制作两个决定,但只观察到\ emph {基于优先级的反馈}建议一个决定比另一个决定更好。我们专注于可实现的遗憾最小化问题,其中反馈由一个由给定函数类$ \ mathcal f $规定的成对偏好矩阵生成。我们提供了一种新的算法,实现了最佳反应遗憾的新概念的最佳遗憾,这是一个严格更强烈的性能测量,而不是先前作品所考虑的绩效衡量标准。该算法还在计算上有效,在多项式时间中运行,假设访问在线丢失回归超过$ \ mathcal f $。这可以解决dud \'ik等人的开放问题。[2015]关于Oracle高效,后悔 - 用于上下文决斗匪徒的最佳算法。
translated by 谷歌翻译
我们考虑了离线强化学习问题,其中目的是学习从记录数据的决策策略。离线RL - 特别是当耦合时函数近似时允许在大或连续状态空间中允许泛化 - 在实践中变得越来越相关,因为它避免了昂贵且耗时的在线数据收集,并且非常适合安全 - 关键域名。对于离线值函数近似方法的现有样本复杂性保证通常需要(1)分配假设(即,良好的覆盖率)和(2)代表性假设(即,表示一些或所有$ q $ -value函数的能力)比什么是更强大的受监督学习所必需的。然而,尽管研究了几十年的研究,但仍然无法充分理解这些条件和离线RL的基本限制。这使得陈和江(2019)猜想勇敢地(覆盖范围最大的覆盖率)和可实现性(最弱的代表条件)不足以足以用于样品有效的离线RL。通过证明通常,即使满足勇敢性和可实现性,也要解决这一猜想,即使满足既勇敢性和可实现性,也需要在状态空间的大小中需要采样复杂性多项式以学习非琐碎的政策。我们的研究结果表明,采样高效的离线强化学习需要超越监督学习的限制性覆盖条件或代表条件,并突出显示出称为过度覆盖的现象,该现象用作离线值函数近似方法的基本障碍。通过线性函数近似的加强学习结果的结果是,即使在恒定尺寸,在线和离线RL之间的分离也可以是任意大的。
translated by 谷歌翻译
上下文匪徒的模型选择是一个重要的互补问题,以便对固定式模型类进行后悔最小化。我们考虑最简单的模型选择实例:区分从线性上下文强盗问题中的简单的多武装强盗问题。即使在这种情况下,目前的最先进的方法以次优的方式探索,并且需要强烈的“特征分集”条件。在本文中,我们介绍了一种以数据适应方式探索的新算法,b)提供表单$ \ mathcal {o}的模型选择保证(d ^ {\ alpha} t ^ {1- \ alpha} )$,没有任何功能分集条件,其中$ d $表示线性模型的尺寸,$ t $表示圆数的总轮数。第一个算法享有“最佳世界”属性,恢复两种以后的分布假设,同时恢复两种结果。第二种删除分布假设,扩展了易于模型选择的范围。我们的方法在一些额外的假设下延伸到嵌套线性上下文匪徒之间的模型选择。
translated by 谷歌翻译
控制理论中的一个基本概念是可控性,可以通过适当的控制输入选择来达到任何系统状态。确实,大量的古典和现代方法是为可控的线性动力系统设计的。但是,在实践中,我们经常遇到系统,其中大量状态变量与控制输入无关。这样的系统仅是部分控制的。这项工作的重点是大量部分可控制的线性动力学系统,该系统由潜在的稀疏模式指定。我们的主要结果建立了结构性条件和有限样本保证,以学习控制此类系统。特别是,我们的结构结果是那些与最佳控制无关的状态变量的特征,该分析偏离了经典的控制技术。我们的算法结果适应了高维统计数据(尤其是软阈值和半参数最小二乘方形),以利用潜在的稀疏模式,以获得有限样本的保证,从而显着改善了基于一定程度等值的有限样本。我们还通过模拟研究证实了这些理论改进,而不是确定性等效控制。
translated by 谷歌翻译
越来越需要与深神经网络兼容的有效主动学习算法。本文激励和重新审视基于经典的Fisher的主动选择目标,并提出了诱饵,实用,易拔和高性能的算法,使其可以与神经模型一起使用。诱饵从参数模型的最大似然估计器(MLE)的理论分析中汲取灵感。它通过在FISHER信息方面优化MLE误差的绑定来选择批次的样本,我们通过利用线性代数结构可以在规模上有效地实现,特别是在现代硬件上执行。我们的实验表明,诱饵始于先前的本领域技术在分类和回归问题上,并且足够灵活,可以与各种模型架构一起使用。
translated by 谷歌翻译
低级MDP已成为研究强化学习中的表示和探索的重要模型。有了已知的代表,存在几种无模型的探索策略。相反,未知表示设置的所有算法都是基于模型的,因此需要对完整动力学进行建模。在这项工作中,我们介绍了低级MDP的第一个无模型表示学习算法。关键的算法贡献是一个新的Minimax表示学习目标,我们为其提供具有不同权衡的变体,其统计和计算属性不同。我们将这一表示的学习步骤与探索策略交织在一起,以无奖励的方式覆盖状态空间。所得算法可证明样品有效,并且可以适应一般函数近似以扩展到复杂的环境。
translated by 谷歌翻译